La fase di controllo e correzione dei dati consiste nell'individuazione
e nel trattamento degli errori (in senso generale, comprensivi cioè
delle mancate risposte parziali) presenti nei dati raccolti mediante una
certa indagine, allo scopo di garantire risultati finali qualitativamente
migliori.
In generale, diciamo che una certa variabile rilevata in una data unità
statistica è affetta da errore quando il suo valore non corrisponde
al valore vero che essa presenta in quella unità. E' chiaro che
la presenza di errori, di qualunque natura essi siano, può provocare
distorsioni nelle distribuzioni delle variabili investigate, nelle stime
finali dei dati (totali, medie, ecc.), e in tutte le analisi statistiche
effettuate sui dati non corretti (Masselli et al. 1989).
La localizzazione delle risposte errate in un certo insieme di dati
statistici è basata su diversi tipi di controlli, che possono essere
classificati in tre categorie principali:
1. controlli di coerenza: verificano che prefissate combinazioni
di valori assunti da variabili rilevate in una stessa unità soddisfino
certi requisiti (regole di compatibilità);
2. controlli di validità o di range: verificano che i
valori assunti da una data variabile siano interni all'intervallo di definizione
della variabile stessa;
3. controlli statistici: utilizzati al fine di isolare quelle
unità statistiche che presentano, per alcune delle variabili in
esse contenute, valori che si discostano in modo significativo dai valori
che le stesse variabili assumono nel resto delle unità campionarie
o rispetto ad una rilevazione precedente.
Gli edit di coerenza o consistenza vengono utilizzati per la costruzione dei cosiddetti piani di compatibilità, oppure di incompatibilità, qualora gli edit rappresentino condizioni di incoerenza. Più rigorosamente, si definisce piano di compatibilità un insieme di vincoli (edit) non ridondanti e non contraddittori, che devono essere contemporaneamente soddisfatti da ogni unità statistica affinché l’informazione corrispondente possa essere considerata corretta.
Il controllo effettuato sui dati mediante un piano di compatibilità è di tipo intra-unità se utilizza le sole informazioni fornite da ogni singola unità osservata, è di tipo inter-unità quando i dati relativi ad una certa osservazione vengono confrontati con informazioni prodotte da altre osservazioni della stessa popolazione.
Gli edit componenti un piano di compatibilità possono essere distinti in:
1. regole formali, che derivano dalla struttura del modello,
cioè direttamente dalle norme di compilazione e dai "percorsi interni"
(salti) del modello;
2. regole sostanziali, che derivano da considerazioni di tipo
statistico-matematico, o da conoscenze specifiche a priori del fenomeno
oggetto di rilevazione.
E' chiaro che la natura degli edit (sia formali che sostanziali) di un piano di compatibilità è strettamente dipendente dal tipo di variabili (qualitative o quantitative) oggetto di verifica. Mentre nel caso di variabili qualitative, infatti, tali edit hanno la forma di relazioni logiche tra le variabili, nel caso di variabili quantitative le regole di compatibilità sono espresse in forma di relazioni statistico/matematiche (equazioni o disequazioni lineari, rapporti, ecc.).
Una volta individuati i record i cui valori violano uno o più vincoli del piano di compatibilità, il problema diventa la localizzazione delle variabili i cui valori devono essere considerati errati ed in quanto tali da sottoporre ad un passo di correzione.
Sia il problema della localizzazione dei record errati, sia quello dell'individuazione delle variabili che, per ogni record errato, sono da considerarsi responsabili della violazione di una o più regole di compatibilità, possono essere risolti adottando un approccio di tipo interattivo oppure automatico.
Nel caso dell’editing automatico, si deve distinguere il caso in cui si utilizzi software specificamente sviluppato per una data tipologia di rilevazioni, oppure generalizzato, cioè immediatamente adattabile a diverse tipologie di indagine.
Nell’ambito dell’editing di tipo automatico possiamo ulteriormente distinguere a seconda che per la costruzione della procedura di editing si adotti un approccio di tipo deterministico oppure probabilistico (Barcaroli et al 1999).
La fase di applicazione delle regole di dominio, di compilazione e di compatibilità ai dati grezzi non può che essere compiuta in modo deterministico: per ogni record, o per gruppi di record, vengono applicate tali regole che, se verificate, segnalano sicuramente la presenza di errori.
Ad esempio:
SE (sesso = maschio E professione = casalinga) ALLORA sussiste incompatibilità x
Una regola di questo tipo non individua, di per sé, l'errore
che ne causa l'attivazione: infatti, il valore non vero può celarsi
in una o nell'altra delle variabili, o in entrambe.
E' nella fase di localizzazione degli errori che diviene decisivo il
tipo di approccio adottato. Nell'approccio deterministico, ad ogni situazione
di incompatibilità segue, contestualmente, l'indicazione delle variabili
che debbono considerarsi errate, e, in quanto tali, da imputare. Nell'esempio
considerato avremo, per ipotesi:
SE (sesso = maschio E professione = casalinga) ALLORA sesso ¬ femmina
il che significa che, se in un record è attivata la condizione
di incompatibilità "maschio/casalinga", la regola indica l'azione
da effettuare per correggere l'errore, che consiste nell'imputare la modalità
femmina alla variabile sesso.
Generalizzando, una volta attivate, mediante le regole di compatibilità,
una o più condizioni di errore in un dato record, sono determinate
a priori le azioni da intraprendere per riportare il medesimo record in
una situazione di correttezza.
Le procedure deterministiche sono generalmente costituite da regole di imputazione deterministica (R.I.D.) del tipo:
SE [incompatibilità] ALLORA [localizzazione e correzione errore]
a condizione di incompatibilità esprime delle relazioni inammissibili
intercorrenti tra due o più variabili; la localizzazione consiste
nell’indicazione di quali variabili considerare errate, ed eventualmente
di quali valori assegnare per correggerle.
Un record, durante l'esecuzione della procedura di correzione, potrà
causare l'attivazione delle regole in corrispondenza delle quali è
verificata la parte SE: in tal caso saranno modificate le variabili indicate
nella parte ALLORA assegnando loro valori predefiniti o scelti in altro
modo
Al contrario di quello precedente, l'approccio probabilistico non prevede
la definizione a priori, per ogni situazione di errore, dell'elenco delle
azioni da intraprendere per eliminare gli errori dai dati: l'esperto statistico
deve limitarsi a definire le situazioni di errore, demandando ad un prefissato
algoritmo il compito di riportare il record ad una situazione di correttezza.
L'approccio probabilistico ha il suo riferimento nella cosiddetta metodologia
Fellegi-Holt (Fellegi e Holt 1976).
Un piano probabilistico è composto, da regole di incompatibilità, che seguendo la terminologia di Fellegi e Holt, vengono chiamate edit in forma normale. Un edit in forma normale è costituto dalla congiunzione di due o più condizioni sui valori di variabili del record: l'edit è attivato da un dato record quando sono verificate simultaneamente tutte le condizioni in esso definite. La parte SE di una R.I.D. (cioè quella che esprime la situazione di errore) può corrispondere a uno o più edit in forma normale.
L'algoritmo che elimina gli errori provvede a determinare, per ogni record e per ogni situazione di errore, le variabili da modificare in modo da avere la certezza di eliminare gli errori individuati e, soprattutto, di non introdurne altri nel record, minimizzando nel contempo il numero di variabili modificate.
Gli edit in forma normale definiti dall'esperto, gli edit espliciti, sono sufficienti ad individuare la presenza di errori all'interno dei record di un file, ma non a garantire una imputazione di valori corretta ed ottimale. Infatti, la scelta di quali variabili modificare e di quali nuovi valori assegnare, è condizionata dai vincoli di correttezza (non introdurre nuovi errori nel record) e di minimalità (modificare il minor numero possibile di variabili). A tal fine, occorre considerare anche i cosiddetti edit impliciti, derivabili da quelli espliciti ed individuare così l'insieme minimo e completo degli edit.
La metodologia di Fellegi-Holt prevede che, una volta definiti gli edit espliciti, questi siano analizzati sia per scoprire la presenza di contraddizioni e/o ridondanze che per derivare tutti gli edit impliciti in essi contenuti.
La fase dell'analisi e della derivazione degli edit, produce un insieme di regole che ha le seguenti caratteristiche:
1. è minimale, privo cioè di edit ridondanti;La derivazione degli edit impliciti nell'ambito della metodologia Fellegi-Holt rappresenta un'operazione altamente critica: infatti la generazione degli edit impliciti richiede un numero di operazioni che è esponenziale rispetto al numero di edit espliciti. Spesso la derivazione degli edit impliciti risulta impossibile; in questo caso si ricorre ad euristiche che permettono di limitare a priori il numero delle operazioni necessarie e alla partizione dell'insieme iniziale di edit suddividendo la fase di correzione in tante sottofasi quanti sono i sottoinsiemi di edit cosi definiti.2. è corretto, privo di edit tra loro contraddittori;
3. è completo, in quanto contiene esplicitamente tutti gli edit implicitamente definiti all'interno di quelli iniziali.
Quali sono i vantaggi e gli svantaggi dei due diversi approcci? Molto schematicamente, possiamo ascrivere ai vantaggi del metodo deterministico:
Tra gli svantaggi ed i limiti del deterministico citiamo:
I vantaggi dell'approccio probabilistico, speculari ai limiti di quello deterministico, sono:
La soluzione ottimale dovrebbe prevedere il trattamento congiunto in un unico passo di entrambe le tipologie di errore (Barcaroli 1998). Nella pratica questo non è possibile, non disponendosi ancora di implementazioni degli opportuni algoritmi. In fase di disegno della procedura complessiva occorre quindi:
a) prevedere la massimizzazione del ricorso all'approccio probabilistico, disegnando in primo luogo un piano di compatibilità che ricalchi i principi della metodologia Fellegi-Holt;In prospettiva, qualora si possa intervenire sul processo di raccolta e registrazione dei dati, e si abbia quindi la possibilità di rimuovere le cause che producono gli errori sistematici, occorre procedere in tal senso, al fine di minimizzare e, al limite, eliminare il ricorso a passi di tipo deterministico (che sono comunque suscettibili di introdurre distorsioni addizionali nei dati).
b) individuare quindi le eventuali componenti sistematiche dell'errore e prevedere, come eccezione, l'applicazione di procedure deterministiche per la loro rimozione.
Tutto ciò implica che la fase di messa a punto delle procedure non è finalizzata solo ad una ottimizzazione della procedura probabilistica ideata nella fase di disegno (verifica della completezza e correttezza del piano di compatibilità), ma anche all'individuazione della componente sistematica degli errori (per lo sviluppo di passi deterministici), ed alla identificazione delle cause di tali errori (per la loro rimozione dal processo produttivo).
Il software CONCORD (CONtrollo e CORrezione dei Dati), sviluppato da E. Riccini Margarucci e P. Floris, permette di applicare sia l’approccio probabilistico che quello deterministico, quest’ultimo integrato col metodo del donatore, mediante una metodologia la cui sequenza di passi è contenuta nella figura 1.1.
Nel software sono infatti disponibili tre diversi moduli, sviluppati a suo tempo indipendentemente presso l’ISTAT:
Il passo di definizione prevede:
Qualora questi esistano, l’utilizzo congiunto dei moduli GRANADA e RIDA permette di effettuare le operazioni 4 e 5 di definizione ed esecuzione del passo deterministico.
GRANADA permette di definire le regole di tipo SE-ALLORA già introdotte. Tenendo conto che la parte SE di tali regole esprime la stessa condizione di errore definita in un corrispondente edit del passo probabilistico, CONCORD dà la possibilità di importare tutte le regole già definite mediante SCIA, inizializzando in tal modo il modulo deterministico. L’utente non dovrà far altro che scegliere quali regole mantenere, e per queste indicarne la parte ALLORA, che corrisponde alla localizzazione deterministica dell’errore.
A questo punto, applicando le regole così definite, è possibile bipartire l’insieme iniziale dei dati in due sottoinsiemi, quello dei dati esatti e quello dei dati contenenti errori.
GRANADA (sviluppato da E. Riccini Margarucci, P. Floris, R. Ciacci e T. Buglielli) consentirebbe anche di imputare direttamente le variabili giudicate errate, indicando il valore puntuale da assegnare; da un punto di vista statistico quest’operazione è però da evitare, o quantomeno da ridurre al minimo, in quanto può comportare rilevanti distorsioni delle distribuzioni originali. E’ bene quindi limitare l’uso di GRANADA all’impostazione di caratteri di controllo nelle variabili giudicate errate, caratteri che verranno utilizzati dal modulo RIDA per riconoscere i valori da imputare.
Mediante RIDA (sviluppato da G. Massimini, T. Buglielli e R. Colosi) la correzione si esegue prelevando i nuovi valori da un record corretto simile al record errato (Abbate 1996). La similitudine si calcola utilizzando alcune variabili, dette di "match", scelte sulla base della loro correlazione con la variabile da correggere. Questo metodo presuppone che le variabili utilizzate per calcolare la distanza fra record errato e donatore siano corrette. Per la ricerca del donatore si procede a confrontare il record errato con tutti i record esatti, scegliendo quello con distanza minima. Le variabili, utilizzate per individuare la similitudine fra i record, si distinguono in variabili di strato e variabili di match. Le variabili di strato si utilizzano per limitare la ricerca all’interno di sottoinsiemi di record che presentano uguali valori di tali variabili. Le variabili di match si utilizzano per calcolare la funzione di distanza mista per tutti i record dello strato. Il donatore prescelto è quello più vicino al record errato, cioè quello con distanza minima.